作为一个简单且强大的移动机器人基础,可以将差速器驱动器机器人建模为运动学独轮车,在工业和国内环境中找到了物流和服务机器人技术的重要应用。安全的机器人在障碍物周围导航是这样的独轮车机器人在复杂的混乱环境中执行各种有用任务的重要技能,尤其是在人和其他机器人周围。在本文中,作为标准圆形Lyapunov级集的更准确的替代方法,我们介绍了新型的锥形反馈运动预测方法,用于在标准的Unicycle运动控制方法下界定运动学Unicycle机器人机器人模型的近环运动轨迹。我们介绍了使用参考调速器的安全机器人导航的Unicycle反馈运动预测的应用,在该机器人的安全下,根据预测的机器人运动,不断监视独轮车运动的安全性。我们研究了运动预测对机器人行为在数值模拟中的作用,并得出结论,准确的反馈运动预测是安全和快速机器人导航的关键。
translated by 谷歌翻译
This paper describes our two-stage system for the Euphemism Detection shared task hosted by the 3rd Workshop on Figurative Language Processing in conjunction with EMNLP 2022. Euphemisms tone down expressions about sensitive or unpleasant issues like addiction and death. The ambiguous nature of euphemistic words or expressions makes it challenging to detect their actual meaning within a context. In the first stage, we seek to mitigate this ambiguity by incorporating literal descriptions into input text prompts to our baseline model. It turns out that this kind of direct supervision yields remarkable performance improvement. In the second stage, we integrate visual supervision into our system using visual imageries, two sets of images generated by a text-to-image model by taking terms and descriptions as input. Our experiments demonstrate that visual supervision also gives a statistically significant performance boost. Our system achieved the second place with an F1 score of 87.2%, only about 0.9% worse than the best submission.
translated by 谷歌翻译
Giving machines the ability to imagine possible new objects or scenes from linguistic descriptions and produce their realistic renderings is arguably one of the most challenging problems in computer vision. Recent advances in deep generative models have led to new approaches that give promising results towards this goal. In this paper, we introduce a new method called DiCoMoGAN for manipulating videos with natural language, aiming to perform local and semantic edits on a video clip to alter the appearances of an object of interest. Our GAN architecture allows for better utilization of multiple observations by disentangling content and motion to enable controllable semantic edits. To this end, we introduce two tightly coupled networks: (i) a representation network for constructing a concise understanding of motion dynamics and temporally invariant content, and (ii) a translation network that exploits the extracted latent content representation to actuate the manipulation according to the target description. Our qualitative and quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms existing frame-based methods, producing temporally coherent and semantically more meaningful results.
translated by 谷歌翻译
基于变压器的语言模型利用注意机制在几乎所有自然语言处理(NLP)任务中进行大量绩效改进。在其他几个领域也广泛研究了类似的关注结构。尽管注意力机制可显着增强模型的性能,但其二次复杂性阻止了长序列的有效处理。最近的工作着重于消除计算效率低下的缺点,并表明基于变压器的模型仍然可以在没有注意力层的情况下达到竞争结果。一项开创性的研究提出了FNET,该研究将注意力层取代了变压器编码器体系结构中的傅立叶变换(FT)。 FNET通过消除注意机制的计算负担来加速训练过程,在加速训练过程的同时,实现了有关原始变压器编码器模型的竞争性能。但是,FNET模型忽略了FT的基本特性,可以利用经典信号处理,以进一步提高模型效率。我们提出了不同的方法,以有效地部署FT在变压器编码器模型中。我们提出的架构具有较少的模型参数,较短的培训时间,较少的内存使用情况以及一些额外的性能改进。我们通过对共同基准的广泛实验来证明这些改进。
translated by 谷歌翻译
基于流量的生成超分辨率(SR)模型学会生产一组可行的SR解决方案,称为SR空间。 SR溶液的多样性随着潜在变量的温度($ \ tau $)的增加而增加,这引入了样品溶液之间纹理的随机变化,从而导致视觉伪像和低忠诚度。在本文中,我们提出了一种简单但有效的图像结合/融合方法,以获得消除随机伪像的单个SR图像,并改善忠诚度,而不会显着损害感知质量。我们通过从流量模型跨越的SR空间中的一系列可行的光真实解决方案中受益,从而实现这一目标。我们提出了不同的图像结合和融合策略,这些策略提供了多种途径,可以根据手头任务的保真度与感知质量要求,以可控的方式将SR Slace样本解决方案移至感知延伸平面中更为理想的目的地。实验结果表明,与流量模型和经过对抗训练的模型所产生的样本SR图像相比,我们的图像结合/融合策略在定量指标和视觉质量方面实现了更有希望的感知依赖权衡。
translated by 谷歌翻译
法律文本的处理一直是自然语言处理(NLP)的新兴领域的发展。法律文本包含词汇,语义,语法和形态中的独特术语和复杂的语言属性。因此,对于法律领域特定的文本简化(TS)方法的开发对于促进普通人理解法律文本并为主流法律NLP应用程序的高级模型提供投入至关重要。尽管最近的一项研究提出了一种基于规则的TS法律文本方法,但以前尚未考虑法律领域中的基于学习的TS。在这里,我们介绍了一种无监督的法律文本简化方法(USLT)。 USLT通过替换复杂的单词和分裂长句子来执行特定于域的TS。为此,USLT检测句子中的复杂单词,通过掩盖转换器模型生成候选者,并根据等级分数选择替代的候选者。之后,USLT递归将长句子分解为较短的核心和上下文句子的层次结构,同时保留语义含义。我们证明,USLT在文本简单性中优于最先进的域总TS方法,同时保持语义完整。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
恶意软件系列的分类对于全面了解他们如何感染设备,计算机或系统的全面了解至关重要。因此,恶意软件识别使安全研究人员和事件响应者能够采取防止恶意软件的预防措施并加速缓解。由于这些序列代表恶意软件的行为,恶意软件由恶意软件制作的API呼叫序列是广泛利用的机器和深度学习模型的特征。但是,传统的机器和深度学习模型仍然无法捕获API呼叫之间的序列关系。另一方面,基于变压器的模型作为整体过程序列,并且由于多针注意机制和位置嵌入而学习API调用之间的关系。我们的实验表明,具有一个变压器块层的变压器模型超越了广泛使用的基础架构,LSTM。此外,伯特或犬,预先训练的变压器模型,在根据评估指标,F1分数和AUC分数分类高度不平衡恶意软件系列方面表现优于分类高度不平衡的恶意软件系列。此外,拟议的基于袋的随机变压器森林(RTF),伯特或犬的集合,已经达到了四个数据集中的三个,特别是最先进的F1 - 在一个常用的基准数据集中得分为0.6149。
translated by 谷歌翻译
如今,恶意软件和恶意软件事件日常增加,即使具有各种防病毒系统和恶意软件检测或分类方法。已经提出了许多静态,动态和混合技术来检测恶意软件并将其分类为恶意软件系列。动态和混合恶意软件分类方法通过高效的静态恶意软件分类方法具有优势。由于难以在执行恶意软件行为的同时执行恶意软件行为,而不是在静态恶意软件分类中的基础代码,因此机器学习技术是安全专家检测恶意软件并动态确定其家庭的主要焦点。恶意软件的快速增长还带来了最近和更新的恶意软件数据集的必要性。我们在这项工作中介绍了两个新的更新数据集:一个有9,795个样本,从virussamples和virusshare的样品中编制了一个。本文还通过使用基于直方图的渐变升压,随机林,支持向量机和XGBoost模型与基于API呼叫的动态恶意软件分类进行分析了这两个数据集的平衡和不平衡版本的多级恶意软件分类性能。结果表明,支持向量机,在不平衡的virysample数据集中实现了94%的最高分,而相同的型号在平衡的virussample数据集中具有91%的精度。虽然xgboost是基于渐变的渐变促进的型号之一,但最高得分为90%和80%。在Virusshare数据集的两个版本中。本文还通过使用动态恶意软件分类文献中的四种最广泛的机器学习技术介绍了VirusShare和VirusSample Datasets的基线结果。我们认为这两个数据集和基线结果使得该领域的研究人员能够测试和验证其方法和方法。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译